Kategoria gramatikalen etiketatzea

Corpus hizkuntzalaritzan, kategoria gramatikalen etiketatzea (ingelesez part-of-speech tagging, POS tagging edo POST), testu (corpus) batean hitz jakin bati dagokion kategoria gramatikala etiketatze-prozesuari deritzo. Horretarako, hitzaren beraren definizioan eta bere testuinguruan —hau da, bere ondoko eta erlazionatutako hitzetan, perpaus, esaldi edo paragrafoan— oinarritzen da. Horren sinplifikazio bat irakatsi ohi zaie eskola-umeei, izenak, aditzak, adjektiboak, adberbioak, eta abar gisa identifikatzeko hitzak.Kanpo loturak

Garai batean eskuz eta hitz gutxirekin egiten zena, orain modu erdiautomatikoan eta masiboki egiten da hizkuntzalaritza konputazionalaren testuinguruan, termino diskretuak zein ezkutuko elipsiak dagokien etiketa gramatikalekin lotuz algoritmoak erabiliz. Kategoria gramatikalen etiketatze-algoritmo hauek bi multzotan bereizten dira: erregeletan oinarritutakoak eta estokastikoak. E. Brillit-en etiketatzailea, ingeleserako lehenengotarikoa, eta gehien erabilia izan dena, erregela bidezkoa da.

Eustagger da euskarazko testuak kategoriarekin etiketatzeko aplikazioetako bat.^[1]

↑ (Ingelesez) «Combining Stochastic and Rule-Based Methods for Disambiguation in Agglutinative Languages | IXA taldea» ixa.si.ehu.eus (ACL) (Noiz kontsultatua: 2018-06-10).

[1] (Ingelesez) «Combining Stochastic and Rule-Based Methods for Disambiguation in Agglutinative Languages | IXA taldea» ixa.si.ehu.eus (ACL) (Noiz kontsultatua: 2018-06-10).

[1]